The receptive field (RF), which determines the region of time series to be ``seen'' and used, is critical to improve the performance for time series classification (TSC). However, the variation of signal scales across and within time series data, makes it challenging to decide on proper RF sizes for TSC. In this paper, we propose a dynamic sparse network (DSN) with sparse connections for TSC, which can learn to cover various RF without cumbersome hyper-parameters tuning. The kernels in each sparse layer are sparse and can be explored under the constraint regions by dynamic sparse training, which makes it possible to reduce the resource cost. The experimental results show that the proposed DSN model can achieve state-of-art performance on both univariate and multivariate TSC datasets with less than 50\% computational cost compared with recent baseline methods, opening the path towards more accurate resource-aware methods for time series analyses. Our code is publicly available at: https://github.com/QiaoXiao7282/DSN.
translated by 谷歌翻译
Recent works have impressively demonstrated that there exists a subnetwork in randomly initialized convolutional neural networks (CNNs) that can match the performance of the fully trained dense networks at initialization, without any optimization of the weights of the network (i.e., untrained networks). However, the presence of such untrained subnetworks in graph neural networks (GNNs) still remains mysterious. In this paper we carry out the first-of-its-kind exploration of discovering matching untrained GNNs. With sparsity as the core tool, we can find \textit{untrained sparse subnetworks} at the initialization, that can match the performance of \textit{fully trained dense} GNNs. Besides this already encouraging finding of comparable performance, we show that the found untrained subnetworks can substantially mitigate the GNN over-smoothing problem, hence becoming a powerful tool to enable deeper GNNs without bells and whistles. We also observe that such sparse untrained subnetworks have appealing performance in out-of-distribution detection and robustness of input perturbations. We evaluate our method across widely-used GNN architectures on various popular datasets including the Open Graph Benchmark (OGB).
translated by 谷歌翻译
我们研究了在约束强化学习中有效探索的后验抽样方法。或者,对于现有算法,我们提出了两种简单的算法,这些算法在统计上更有效,更简单地实现和计算便宜。第一种算法基于CMDP的线性公式,第二算法利用CMDP的鞍点公式。我们的经验结果表明,尽管具有简单性,但后取样可实现最先进的表现,在某些情况下,采样明显优于乐观算法。
translated by 谷歌翻译
彩票(LTS)能够发现准确而稀疏的子网,可以隔离训练以匹配密集网络的性能。合奏并行,是机器学习中最古老的预期技巧之一,可以通过结合多个独立模型的输出来提高性能。但是,在LTS背景下,合奏的好处将被稀释,因为合奏并没有直接导致更稀疏的子网,而是利用其预测来做出更好的决定。在这项工作中,我们首先观察到,直接平均相邻学习的子网的权重显着提高了LT的性能。在这一观察结果的鼓励下,我们进一步提出了另一种方法,通过简单的插值策略通过迭代幅度修剪来识别的子网执行“合奏”。我们称我们的方法彩票池。与幼稚的合奏相比,每一个子网都不会带来性能,彩票池比原始LTS产生的稀疏子网稀疏得多,而无需任何额外的培训或推理成本。在CIFAR-10/100和Imagenet上的各种现代体系结构中,我们表明我们的方法在分布和分发场景方面都取得了显着的性能。令人印象深刻的是,用VGG-16和RESNET-18进行评估,生产的子网稀疏的子网在CIFAR-100上优于原始LTS,在CIFAR-100-C上高达1.88%,而CIFAR-100-C则高于2.36%。最终的致密网络超过了CIFAR-100的预训练密集模型,在CIFAR-100-C上超过2.22%。
translated by 谷歌翻译
检测数据分布突然变化的变更点检测(CPD)被认为是时间序列分析中最重要的任务之一。尽管关于离线CPD的文献广泛,但无监督的在线CPD仍面临主要挑战,包括可扩展性,超参数调整和学习限制。为了减轻其中一些挑战,在本文中,我们提出了一种新颖的深度学习方法,用于从多维时间序列中无监督的在线CPD,名为Adaptive LSTM-AUTOENOCODER变更点检测(ALACPD)。 ALACPD利用了基于LSTM-AutoEncoder的神经网络来执行无监督的在线CPD。它连续地适应了传入的样本,而无需保留先前接收的输入,因此没有内存。我们对几个实际时间序列的CPD基准进行了广泛的评估。我们表明,在时间序列细分的质量方面,ALACPD平均在最先进的CPD算法中排名第一,并且就估计更改点的准确性而言,它与表现最好。 ALACPD的实现可在Github \ footNote {\ url {https://github.com/zahraatashgahi/alacpd}}上在线获得。
translated by 谷歌翻译
自视觉变压器(VIT)出现以来,变形金刚在计算机视觉世界中迅速发光。卷积神经网络(CNN)的主要作用似乎受到越来越有效的基于变压器的模型的挑战。最近,几个先进的卷积模型以当地但大量注意机制的驱动的大型内核进行反击,显示出吸引力的性能和效率。尽管其中一个(即Replknet)令人印象深刻地设法将内核大小扩展到31x31,而性能提高,但随着内核大小的持续增长,性能开始饱和,与Swin Transformer等高级VIT的缩放趋势相比。在本文中,我们探讨了训练大于31x31的极端卷积的可能性,并测试是否可以通过策略性地扩大卷积来消除性能差距。这项研究最终是从稀疏性的角度施加极大核的食谱,该核心可以将内核平滑地扩展到61x61,并且性能更好。我们提出了稀疏的大内核网络(SLAK),这是一种纯CNN架构,配备了51x51个核,可以与最先进的层次变压器和现代探测器架构(如Convnext和Repleknet and Replknet and Replknet and Replknet and Replinext and Replknet and Replinext and Convnext and Replentical conternels cor相同或更好在成像网分类以及典型的下游任务上。我们的代码可在此处提供https://github.com/vita-group/slak。
translated by 谷歌翻译
关于稀疏神经网络训练(稀疏训练)的最新研究表明,通过从头开始训练本质上稀疏的神经网络可以实现绩效和效率之间的令人信服的权衡。现有的稀疏训练方法通常努力在一次跑步中找到最佳的稀疏子网,而无需涉及任何昂贵的密集或预训练步骤。例如,作为最突出的方向之一,动态稀疏训练(DST)能够通过在训练过程中迭代发展稀疏拓扑来实现竞争性训练的竞争性能。在本文中,我们认为最好分配有限的资源来创建多个低损失的稀疏子网并将其超级置于更强的基因,而不是完全分配所有资源以找到单个子网络。为了实现这一目标,需要两个Desiderata:(1)在一个培训过程中有效生产许多低损失的子网,即所谓的廉价门票,仅限于用于密集培训的标准培训时间; (2)将这些廉价的门票有效地超级为一个更强的子网,而无需超越约束参数预算。为了证实我们的猜想,我们提出了一种新颖的稀疏训练方法,称为\ textbf {sup-tickets},可以在单个稀疏到较小的训练过程中同时满足上述两个desiderata。在CIFAR-10/100和Imagenet上的各种现代体系结构中,我们表明,SUP-Tickets与现有的稀疏训练方法无缝集成,并显示出一致的性能提高。
translated by 谷歌翻译
我们考虑了一个特殊的匪徒问题的情况,即批处理匪徒,其中代理在一定时间段内观察批次的响应。与以前的工作不同,我们考虑了一个更实际相关的以批量学习为中心的情况。也就是说,我们提供了政策不足的遗憾分析,并为候选政策的遗憾展示了上和下限。我们的主要理论结果表明,批处理学习的影响是相对于在线行为的遗憾,批处理大小的多重因素。首先,我们研究了随机线性匪徒的两个设置:有限且无限多手臂的土匪。尽管两种设置的遗憾界限都是相同的,但前者的设置结果在温和的假设下保持。另外,我们为2臂匪徒问题作为重要见解提供了更强大的结果。最后,我们通过进行经验实验并反思最佳批量选择来证明理论结果的一致性。
translated by 谷歌翻译
少量分类任务旨在根据支持集中的一些标记示例对查询集中的图像进行分类。大多数研究通常假设任务中的每个图像都有一个单一和唯一的类关联。在这些假设下,当支持和查询类之间没有完全匹配时,这些算法可能无法识别适当的类分配。例如,给定几个狮子,自行车和苹果的图像来分类老虎。然而,在更普遍的环境中,我们可以考虑大型食肉动物的更高级别概念,以将老虎与狮子相匹配。由于基于标签的监督与复杂的概念关系不相容,现有研究很少考虑这种情况。在这项工作中,我们向这种更具挑战性的情景,基于语义的少量学习的少数镜头学习,并提出了一种通过互动心理学学习捕获内心语义关系来解决范例的方法。我们在CIFAR-100数据集上评估我们的方法。结果表明了我们所提出的方法的优点。
translated by 谷歌翻译
我们考虑了一个特殊的强盗问题,即批量炸匪。通过推荐制度和电子商务平台的自然限制,我们假设学习代理观察在一定时间内在分组中分批的响应。与以前的工作不同,我们考虑一个更实际相关的批量学习场景。我们为候选政策的遗憾提供了政策 - 不可知的遗憾分析,并展示上下界限。我们的主要理论结果表明,批量学习的影响可以根据在线行为来衡量。最后,我们通过进行经验实验并反映最佳批量尺寸选择来证明理论结果的一致性。
translated by 谷歌翻译